The notion of concept drift refers to the phenomenon that the distribution generating the observed data changes over time. If drift is present, machine learning models may become inaccurate and need adjustment. Many technologies for learning with drift rely on the interleaved test-train error (ITTE) as a quantity which approximates the model generalization error and triggers drift detection and model updates. In this work, we investigate in how far this procedure is mathematically justified. More precisely, we relate a change of the ITTE to the presence of real drift, i.e., a changed posterior, and to a change of the training result under the assumption of optimality. We support our theoretical findings by empirical evidence for several learning algorithms, models, and datasets.
translated by 谷歌翻译
Teaser: How seemingly trivial experiment design choices to simplify the evaluation of human-ML systems can yield misleading results.
translated by 谷歌翻译
越来越多的研究进行了人类主题评估,以研究为用户提供机器学习模型的解释是否可以帮助他们制定实际现实世界中的用例。但是,运行的用户研究具有挑战性且昂贵,因此每个研究通常只评估有限的不同设置,例如,研究通常只评估一些任意选择的解释方法。为了应对这些挑战和援助用户研究设计,我们介绍了用用例的模拟评估(Simevals)。 SIMEVALS涉及培训算法剂,以输入信息内容(例如模型解释),这些信息内容将在人类学科研究中提交给每个参与者,以预测感兴趣的用例的答案。算法代理的测试集精度提供了衡量下游用例信息内容的预测性。我们对三种现实世界用例(正向模拟,模型调试和反事实推理)进行全面评估,以证明Simevals可以有效地确定哪种解释方法将为每个用例提供帮助。这些结果提供了证据表明,Simevals可用于有效筛选一组重要的用户研究设计决策,例如在进行潜在昂贵的用户研究之前,选择应向用户提供哪些解释。
translated by 谷歌翻译
机器学习(ML)从业人员越来越多地承担着与非技术专家的价值观和目标保持一致的模型。但是,关于从业人员如何将域专业知识转化为ML更新的考虑不足。在本文中,我们考虑如何系统地捕获从业者和专家之间的互动。我们设计了一种分类法,以将专家反馈类型与从业者更新相匹配。从业者可以从观察或域级别的专家那里收到反馈,并将此反馈转换为数据集,损耗函数或参数空间的更新。我们回顾了ML和人类计算机互动中的现有工作,以描述这种反馈更高的分类法,并强调了不足以纳入非技术专家的反馈意见。我们以一系列的开放问题结尾,这些问题自然而然地源于我们提议的分类法和随后的调查。
translated by 谷歌翻译
当经过自动化决策时,决策主题将战略性地修改其可观察特征,他们认为可以最大限度地提高收到理想的结果的机会。在许多情况下,潜在的预测模型是故意保密的,以避免游戏并保持竞争优势。这种不透明度迫使决策主题依赖于制定战略功能修改时依赖不完整的信息。我们将这样的设置捕获作为贝叶斯劝说的游戏,其中决策者发送信号,例如动作建议,以便决定受激励他们采取理想的行动。我们制定决策者找到最佳贝叶斯激励兼容(BIC)行动推荐策略作为优化问题的问题,并通过线性程序表征解决方案。通过这种特征,我们观察到,虽然可以显着地简化了找到最佳BIC推荐策略的问题,但是解决该线性程序的计算复杂性与(1)决策主题的动作空间的相对大小紧密相关(2)基础预测模型利用的特征数。最后,我们提供了最佳BIC推荐政策的性能的界限,并表明与标准基线相比,它可能导致任意更好的结果。
translated by 谷歌翻译